🔥 รวบรวมข้อมูลจากแหล่งต่าง ๆ มาได้แล้ว...แต่รู้สึกว่ามันยังมั่วไปหมดเลย จะเอาไปวิเคราะห์ต่อต้องยากแน่ ๆ ต้องทำยังไงดี ??
.
👉 ปัญหาเหล่านั้นจะหมดไป ถ้าเพื่อน ๆ รู้จักกับการทำ “Data Cleansing” 🧹 และวันนี้แอดจะพาเพื่อน ๆ มาทัวร์เทคนิคต่าง ๆ ในการทำ Data Cleansing ให้ได้ข้อมูลแบบคลีน ๆ เพื่อเตรียมข้อมูลให้พร้อมใช้งาน ไม่ว่าจะนำข้อมูลไปวิเคราะห์ หรือทำงานใหญ่ ๆ อย่าง Machine Learning ได้อย่างมีประสิทธิภาพมากขึ้นนั่นเอง
.
มีเทคนิคอะไรบ้าง ? ไปติดตามกันโลดดด !
.
🌈 ก่อนอื่นเรามารู้จักนิยามของ Data Cleansing กันก่อน...ชื่อมันก็บอกอยู่แล้วว่า “ทำความสะอาด” ซึ่งมันเป็นกระบวนการทำความสะอาดข้อมูล ไม่ว่าจะเป็นการแก้ไข ลบ และจัดรูปแบบของข้อมูล ก่อนการนำข้อมูลไปวิเคราะห์ เพราะการรวบรวมข้อมูลจากแหล่งต่าง ๆ นั้น อาจจะมีรูปแบบของข้อมูลที่แตกต่างกัน หรืออาจมีข้อมูลซ้ำซ้อนกันได้ จึงต้องมีกระบวนการนี้เกิดขึ้นมานั่นเอง
.
และเทคนิคการทำ Data Cleansing มีดังนี้
.
🔸 Step1 : ลบข้อมูลที่ซ้ำกัน
.
การรวบรวมข้อมูลจากแหล่งต่าง ๆ อาจมีบางครั้งที่เกิดข้อผิดพลาด ซึ่งทำให้ข้อมูลที่เราได้มามีโอกาสซ้ำซ้อนได้ หากเรานำข้อมูลที่ยังซ้ำกันอยู่ไปวิเคราะห์ต่อ อาจจะทำให้ผลลัพธ์ที่ได้มาคลาดเคลื่อนไปจากค่าที่ควรจะเป็นได้ เราจึงต้องลบข้อมูลที่ซ้ำกันออกไป ซึ่งเดี๋ยวนี้เขาก็มีเครื่องมือเจ๋ง ๆ มากมายที่ช่วยจัดการข้อมูลที่ซ้ำกัน ไม่ว่าจะเป็น Excel, Google Sheet, หรือถ้าเทพหน่อยอยากจะเขียน Script ลบข้อมูลเองได้เลย !
.
🔸 Step2 : แก้ไขโครงสร้างข้อมูล
.
มันแน่นอนอยู่แล้วที่เวลาเรานำข้อมูลจากแหล่งต่าง ๆ มารวมกัน ข้อมูลเหล่านั้นอาจจะมีโครงสร้างที่ต่างกัน ตัวอย่างเช่น การตั้งชื่อ การใช้ตัวอักษรพิมพ์ใหญ่-พิมพ์เล็กที่ไม่สอดคล้องกัน หรืออาจจะเป็น Format ที่แตกต่างกัน เมื่อเรานำข้อมูลเหล่านั้นไปติด Label จัดหมวดหมู่หรือนำไปวิเคราะห์ต่อ อาจจะทำให้ข้อมูลเหล่านั้นตกหล่น หรือไม่ถูกนำไปจัดอยู่ในหมวดหมู่ที่ถูกต้องได้ เราจึงต้องแก้ไขโครงสร้างของข้อมูลให้อยู่ในรูปแบบเดียวกันทั้งหมดก่อนนั่นเอง
.
🔸 Step3 : กรองข้อมูลที่ผิดปกติ
.
ข้อมูลที่ถูกรวบรวมมาอาจจะมีบางส่วนที่ผิด เช่น พิมพ์ผิด ใช้หน่วยทางคณิตศาสตร์ผิดประเภทตัวเลขผิด และรวมไปถึงการป้อนข้อมูลที่ไม่เหมาะสม ซึ่งการกรองข้อมูลเหล่านี้ก่อนการวิเคราะห์จะทำให้ได้ข้อมูลมีประสิทธิภาพมากขึ้น
.
🔸 Step4 : จัดการข้อมูลที่ขาดหาย
.
อีกหนึ่งขั้นตอนสำคัญในการทำ Data Cleansing เราควรตรวจสอบข้อมูลที่ขาดหายหรือไม่สมบูรณ์ก่อนนำข้อมูลไปวิเคราะห์ อย่างเช่น ข้อมูลที่มีการพิมพ์ตกหล่น ไม่มีหน่วย หรือไม่มีวันที่ เพราะจะทำให้ผลลัพธ์จากการวิเคราะห์ข้อมูลนั้นคลาดเคลื่อนได้
.
🔸 Step5 : ตรวจสอบความถูกต้อง
.
เมื่อเราจัดการกับข้อมูลใน 4 ขั้นตอนด้านบนมาเรียบร้อยแล้ว เราก็ต้องมาตรวจสอบความถูกต้องอีกหนึ่งรอบเพื่อให้ได้ข้อมูลที่ครบถ้วนสมบูรณ์ และตรงตามเป้าหมายมากที่สุด เพื่อการนำข้อมูลไปวิเคราะห์ต่อได้อย่างมีประสิทธิภาพนั่นเอง !!
.
จะบอกว่าการทำ Data Cleansing เนี่ยเป็นขั้นตอนที่สำคัญมาก ๆ อาจจะต้องใช้เวลาถึง 80% ในกระบวนการวิเคราะห์ข้อมูลด้วยซ้ำ ลองคิดง่าย ๆ ถ้าเราอยากจะเทรนโมเดลสักอย่างนึง แต่ไม่มีข้อมูลดี ๆ คลีน ๆ มาใช้เทรน แล้วโมเดลที่ออกมามันจะไปแม่นยำได้อย่างไร…
.
ใครที่อยากจะทำโปรเจกต์ หรืองานทางด้านนี้อย่ามองข้ามขั้นตอนสำคัญพวกนี้เด็ดขาดเลย !!
.
และทั้งหมดนี้ก็เป็นขั้นตอนการทำ Data Cleansing หากเพื่อน ๆ ชอบเนื้อหานี้ อย่าลืมกดไลก์ กดแชร์เพื่อเป็นกำลังใจให้พวกเราผลิตคอนเทนต์ดี ๆ ต่อไปด้วยน้าาาา ❤️
.
borntoDev - 🦖 สร้างการเรียนรู้ที่ดีสำหรับสายไอทีในทุกวัน